昨天我們學會了 Prompt Caching 這個「時間魔法」,讓 AI 不用每次都重新思考。但今天要聊一個更現實的問題:當你的 AI 煉金工房開始規模化運作時,帳單也跟著規模化了。
想像一下,你的個人煉金實驗室升級成了工業級大工廠。以前一個月燒個幾百元台幣,現在帳單突然變成幾萬、幾十萬。
這就像你以為開了一家小麵包店,結果發現自己不小心開了連鎖麵包工廠,每天的麵粉帳單讓你頭皮發麻。
在深入優化策略前,我們先搞清楚一個殘酷事實:儘管 Token 價格不斷下降,但實際任務成本依然居高不下。為什麼?
Token 降價了,但用量暴增了
2025 年各家廠商都在降價:
聽起來很棒?但這就像油價降了,你卻從騎機車變成開油罐車。當你從簡單問答升級到 Multi-Agent 系統、RAG 檢索、長期記憶管理時,Token 消耗量可能是原本的 10 倍、100 倍。
舉個實際例子:
即使 Token 單價降低,總成本反而更高。這就是為什麼我們需要「煉金師的帳本」——系統性的成本管理策略。
還記得 Day 14-15 我們談過的 Multi-Agent 協作嗎?不同的 Agent 負責不同的任務。同樣的道理,不同的任務應該用不同等級的模型。
研究顯示,正確的模型選擇可以減少 60% 的 Token 成本。這不是小數字,而是實實在在的六成節省!
輕量級任務 (用最便宜的模型)
推薦模型:
中量級任務 (平衡性價比)
推薦模型:
重量級任務 (只在必要時使用)
推薦模型:
這就像餐廳的食材管理:一般菜色用普通食材,只有招牌菜才用頂級食材。顧客滿意度不變,成本卻大幅下降。
所有主要供應商 (OpenAI、Anthropic) 都提供 Batch API,可享 50% 折扣。條件只有一個:你願意等 24 小時。
適合:
不適合:
還記得 Day 2 我們學過的提示工程嗎?當時我們專注在「如何讓 AI 給出更好的答案」。現在要加上另一個維度:「如何用最少的字達成目標」。
研究顯示,精簡的提示可以減少 30-50% 的 Token 消耗。這不是要你犧牲品質,而是去除冗餘。
冗餘版 (浪費 Token):
你是一位非常專業且經驗豐富的資深產品經理,擁有超過 15 年的產品管理經驗,
曾經在多家知名科技公司工作過,對於產品策略、使用者體驗、市場分析都有深入的
了解和獨到的見解。現在,我需要你根據你豐富的經驗和專業知識,仔細分析以下
這份市場調查報告,並且提供你的專業意見和建議...
(約 150 tokens)
精簡版 (省錢但有效):
角色:資深產品經理 (15年經驗)
任務:分析市場調查報告,提供策略建議
輸出:3-5 個可執行建議,每個包含數據支撐
(約 40 tokens,省下 70%)
使用 OpenAI 的 Structured Output 功能,可以大幅減少輸入 Token,同時獲得更一致的格式。
與其在 System Prompt 裡塞一堆範例:
範例一:
{"title": "...", "summary": "...", "tags": [...]}
範例二:
...
不如直接用 JSON Schema 定義:
{
"type": "object",
"properties": {
"title": {"type": "string"},
"summary": {"type": "string", "maxLength": 200},
"tags": {"type": "array", "items": {"type": "string"}}
}
}
省下的 Token 可能高達數千個。
昨天我們學了 Prompt Caching,但企業級的快取策略遠不止於此。
第一層:Prompt Caching (內建功能)
第二層:語意快取 (Semantic Caching)
語意快取能識別相似問題,即使措辭不同,將快取命中率從 10% 提升到 40%。
範例:
這三個問題措辭不同,但語意相同。語意快取會認出它們是同一個問題,直接回傳快取結果。
第三層:結果快取 (Application-Level Caching)
在你的應用層面,使用 Redis 或類似工具快取常見問答的完整結果。
使用時間戳記確保資料新鮮度,同時最大化快取效益:
你無法最佳化你沒有測量的東西
成本指標:
效率指標:
品質指標:
如設定自動警報:
function monitorApiCosts(currentUsage) {
const dailyBudget = 100; // 每日預算 $100
const warningThreshold = 0.7; // 70% 時警告
if ((currentUsage / dailyBudget) > warningThreshold) {
sendAlert(`API 使用量已達每日預算的 ${Math.round(currentUsage / dailyBudget * 100)}%`);
}
if (currentUsage > dailyBudget) {
enableEmergencyRateLimiting(); // 啟動緊急限流
}
}
成本優化不是「省錢」這麼簡單,而是「把錢花在刀口上」。
記住三個原則:
當你從「碰運氣的賭徒」進化到「掌握方法的煉金師」,再升級為「精算成本的企業家」時,你不只是在省錢,更是在建立可持續、可擴展的 AI 系統。